2 research outputs found

    Recherche d'information dans les documents XML : prise en compte des liens pour la sélection d'éléments pertinents

    Get PDF
    156 p. : ill. ; 30 cmNotre travail se situe dans le contexte de la recherche d'information (RI), plus particuliĂšrement la recherche d'information dans des documents semi structurĂ©s de type XML. L'exploitation efficace des documents XML disponibles doit prendre en compte la dimension structurelle. Cette dimension a conduit Ă  l'Ă©mergence de nouveaux dĂ©fis dans le domaine de la RI. Contrairement aux approches classiques de RI qui mettent l'accent sur la recherche des contenus non structurĂ©s, la RI XML combine Ă  la fois des informations textuelles et structurelles pour effectuer diffĂ©rentes tĂąches de recherche. Plusieurs approches exploitant les types d'Ă©vidence ont Ă©tĂ© proposĂ©es et sont principalement basĂ©es sur les modĂšles classiques de RI, adaptĂ©es Ă  des documents XML. La structure XML a Ă©tĂ© utilisĂ©e pour fournir un accĂšs ciblĂ© aux documents, en retournant des composants de document (par exemple, sections, paragraphes, etc.), au lieu de retourner tout un document en rĂ©ponse une requĂȘte de l'utilisateur. En RI traditionnelle, la mesure de similaritĂ© est gĂ©nĂ©ralement basĂ©e sur l'information textuelle. Elle permetle classement des documents en fonction de leur degrĂ© de pertinence en utilisant des mesures comme:" similitude terme " ou " probabilitĂ© terme ". Cependant, d'autres sources d'Ă©vidence peuvent ĂȘtre considĂ©rĂ©es pour rechercher des informations pertinentes dans les documents. Par exemple, les liens hypertextes ont Ă©tĂ© largement exploitĂ©s dans le cadre de la RI sur le Web.MalgrĂ© leur popularitĂ© dans le contexte du Web, peud'approchesexploitant cette source d'Ă©vidence ont Ă©tĂ© proposĂ©es dans le contexte de la RI XML. Le but de notre travail est de proposer des approches pour l'utilisation de liens comme une source d'Ă©videncedans le cadre de la recherche d'information XML. Cette thĂšse vise Ă  apporter des rĂ©ponses aux questions de recherche suivantes : 1. Peut-on considĂ©rer les liens comme une source d'Ă©vidence dans le contexte de la RIXML? 2. Est-ce que l'utilisation de certains algorithmes d'analyse de liensdans le contexte de la RI XML amĂ©liore la qualitĂ© des rĂ©sultats, en particulier dans le cas de la collection Wikipedia? 3. Quels types de liens peuvent ĂȘtre utilisĂ©s pour amĂ©liorer le mieux la pertinence des rĂ©sultats de recherche? 4. Comment calculer le score lien des diffĂ©rents Ă©lĂ©ments retournĂ©s comme rĂ©sultats de recherche? Doit-on considĂ©rer lesliens de type "document-document" ou plus prĂ©cisĂ©ment les liens de type "Ă©lĂ©ment-Ă©lĂ©ment"? Quel est le poids des liens de navigation par rapport aux liens hiĂ©rarchiques? 5. Quel est l'impact d'utilisation de liens dans le contexte global ou local? 6. Comment intĂ©grer le score lien dans le calcul du score final des Ă©lĂ©ments XML retournĂ©s? 7. Quel est l'impact de la qualitĂ© des premiers rĂ©sultats sur le comportement des formules proposĂ©es? Pour rĂ©pondre Ă  ces questions, nous avons menĂ© une Ă©tude statistique, sur les rĂ©sultats de recherche retournĂ©s par le systĂšme de recherche d'information"DALIAN", qui a clairement montrĂ© que les liens reprĂ©sentent un signe de pertinence des Ă©lĂ©ments dans le contexte de la RI XML, et cecien utilisant la collection de test fournie par INEX. Aussi, nous avons implĂ©mentĂ© trois algorithmes d'analyse des liens (Pagerank, HITS et SALSA) qui nous ont permis de rĂ©aliser une Ă©tude comparative montrant que les approches "query-dependent" sont les meilleures par rapport aux approches "global context" . Nous avons proposĂ© durant cette thĂšse trois formules de calcul du score lien: Le premiĂšreest appelĂ©e "Topical Pagerank"; la seconde est la formule : "distance-based"; et la troisiĂšme est :"weighted links based". Nous avons proposĂ© aussi trois formules de combinaison, Ă  savoir, la formule linĂ©aire, la formule Dempster-Shafer et la formule fuzzy-based. Enfin, nous avons menĂ© une sĂ©rie d'expĂ©rimentations. Toutes ces expĂ©rimentations ont montrĂ© que: les approches proposĂ©es ont permis d'amĂ©liorer la pertinence des rĂ©sultats pour les diffĂ©rentes configurations testĂ©es; les approches "query-dependent" sont les meilleurescomparĂ©es aux approches global context; les approches exploitant les liens de type "Ă©lĂ©ment-Ă©lĂ©ment"ont obtenu de bons rĂ©sultats; les formules de combinaison qui se basent sur le principe de l'incertitude pour le calcul des scores finaux des Ă©lĂ©ments XML permettent de rĂ©aliser de bonnes performance

    Reformulation de requĂȘtes dans les systĂšmes de recherche d'information dans des documents XML

    Get PDF
    116 p. , ill. , 30 cmNotre travail se situe dans le contexte de la recherche d’information (RI), plus particuliĂšrement la recherche d'information dans des documents semi structurĂ©s de type XML. La reformulation de requĂȘtes est une phase importante dans les systĂšmes de recherche d’information. Elle permet en effet de rĂ©crire la requĂȘte de l’utilisateur selon les informations retrouvĂ©es par la requĂȘte initiale. De maniĂšre gĂ©nĂ©rale, ceci consiste, dans le cas notamment de la rĂ©injection de la pertinence, d’extraire Ă  partir des documents jugĂ©s pertinents par l’utilisateur, les mots-clĂ©s importants puis les rajouter Ă  la requĂȘte initiale. L’objectif de ce projet est de proposer une solution pour adapter ce processus bien connu et bien Ă©tabli dans les systĂšmes de recherche d’information plein texte, Ă  la recherche d’information dans des documents XML. L’utilisation de la technique de rĂ©injection de pertinence dans le contexte de la RI structurĂ©e nĂ©cessite la prise en charge de la dimension structurelle en plus de la dimension textuelle. Dans ce travail nous avons tentĂ© d’apporter des rĂ©ponses aux diffĂ©rentes questions posĂ©es, Ă  savoir : Comment effectuer une reformulation de requĂȘtes par rĂ©injection de pertinence dans ce contexte? Comment extraire les meilleurs termes Ă  partir d’unitĂ©s d’information jugĂ©es pertinentes et non pertinentes par l’utilisateur, sachant que ces unitĂ©s peuvent avoir des sĂ©mantiques diffĂ©rentes (ex : un paragraphe, une section, un titre), et peuvent ĂȘtre imbriquĂ©es les unes dans les autres? Quels poids doit-on assigner Ă  ces diffĂ©rents termes dans ces diffĂ©rents cas de figures? Est-il opportun, par exemple, d’assigner le mĂȘme poids Ă  un terme provenant d’un titre et d’une section? Comment intĂ©grer l’information structurelle dans la formation de la nouvelle requĂȘte ? Nos propositions concernent les catĂ©gories de stratĂ©gies : le rĂ©-ordonnancement de la liste des rĂ©sultats; et puis l'expansion de requĂȘtes. Concernant la stratĂ©gie de rĂ©-ordonnancement, nous proposons deux mĂ©thodes : le rĂ©ordonnancement contextuel et le rĂ©-ordonnancement par nom de Journal. En ce qui concerne l’expansion de requĂȘtes, nous proposons deux mĂ©thodes : expansion par ajout de termes et expansion par ajout de contraintes structurelles. L’évaluation effectuĂ©e porte sur les mĂ©thodes de rĂ©-ordonnancement appliquĂ©es sur des rĂ©sultats renvoyĂ©s par le systĂšme de recherche d’information XFIRM en utilisant des jugements de pertinence issus de la campagne INEX. L’évaluation des formules proposĂ©es nous a permis de constater que les rĂ©sultats obtenus aprĂšs rĂ©-ordonnancement sont meilleurs que ceux de l'exĂ©cution de bas
    corecore